卡方拟合优度检验 - 简明教程

By Ruben Geert van den Berg under Chi-Square Tests & Statistics A-Z

  • 零假设 (Null Hypothesis)
  • 假设 (Assumptions)
  • 公式 (Formulas)
  • 效应量 - Cohen’s W
  • 功效和样本量计算 (Power and Sample Size Calculation)

卡方拟合优度检验 (Chi-Square Goodness-of-Fit Test) 检验一个分类变量在一个总体中是否具有某种假设的频率分布。卡方拟合优度检验也被称为:

  • 单样本卡方检验 (one-sample chi-square test) ( SPSS ) 或
  • 多项式检验 (multinomial test) ( JASP ).

示例 - 测试汽车广告

一家汽车制造商想为一款新车发起一项营销活动。他们将展示4种不同尺寸的广告(advertisements,简称 ads)。对于每种尺寸的广告,他们都有4个试图传达某种信息的广告,例如“这款车对环境友好”。然后,他们询问了 N = 80 人,他们最喜欢哪个广告。由此获得的数据在这个 Googlesheet 电子表格 中,部分内容如下所示。

卡方拟合优度检验原始数据

那么,哪些广告在我们的样本中表现最好呢? 我们可以简单地查找哪个广告最受访客欢迎:频率最高的广告就是每个广告尺寸的 众数 (mode)。

所以,让我们看一下第一个广告尺寸 - ad1 - 的频率分布,如下图所示。

观察频率和条形图

卡方拟合优度检验条形图频率

此图表中显示的观察频率 (observed frequencies) 为:

  1. 安全和家庭友好型:6
  2. 奢华和男性化:29
  3. 环境友好型:16
  4. 宽敞和便利:29

请注意,ad1 具有双峰分布:广告 2 和 4 都是赢家,各有 29 票。 但是,我们的数据仅包含 N = 80 的样本。那么我们是否可以得出结论,广告 2 和 4 在整个总体中也表现最佳? 卡方拟合优度检验回答了这个问题。 对于这个例子,它试图拒绝所有广告在人群中表现一样好的零假设。

零假设 (Null Hypothesis)

通常,卡方拟合优度检验的零假设很简单:

\[H_0: P_{01}, P_{02},...,P_{0m},\; \sum_{i=0}^m\biggl(P_{0i}\biggr) = 1\]

其中 \(P_{0i}\) 表示某个分类变量中 \(m\) 个类别的总体比例。您可以选择任何比例集,只要它们加起来为 1 即可。 在许多情况下,所有比例相等是最可能的零假设。 对于只有 2 个类别的 二分变量 ,最好使用

无论如何,对于我们的示例,我们想表明某些广告比其他广告表现更好。 因此,我们将尝试反驳我们的 4 个总体比例都相等且 - 因此 - 为 0.25 的假设。

预期频率 (Expected Frequencies)

现在,如果这 4 个总体比例确实是 0.25,并且我们抽取了 N = 80 个受访者,那么我们预计每个广告将受到 0.25 · 80 = 20 个受访者的青睐。 也就是说,所有 4 个预期频率均为 20。我们需要知道这些预期频率有两个原因:

  • 计算我们的检验统计量需要预期频率,并且
  • 卡方拟合优度检验的假设也涉及预期频率。

假设 (Assumptions)

卡方拟合优度检验需要 2 个假设 2, 3:

  1. 独立的观察值 (independent observations);
  2. 对于 2 个类别,每个预期频率 \(Ei\) 必须至少为 5。 对于 3 个以上类别,每个 \(Ei\) 必须至少为 1,并且所有 \(Ei\) 中不超过 20% 可能小于 5。

我们数据中的观察值是独立的,因为它们是不同的人,他们在完成我们的调查时没有互动。 我们还看到,对于我们的示例,所有 \(Ei\) 都是 (0.25 · 80 =) 20。 因此,第二个假设也满足了。

公式 (Formulas)

我们将首先计算 \(^2\) 检验统计量,如下所示:

\[\chi^2 = \sum\frac{(O_i - E_i)^2}{E_i}\]

其中

  • \(O_i\) 表示 观察频率 (observed frequencies),并且
  • \(E_i\) 表示 预期频率 (expected frequencies) - 通常都相等。

对于 ad1,这将导致:

\[\chi^2 = \frac{(16 - 20)^2}{20} + \frac{(29 - 20)^2}{20} + \frac{(9 - 20)^2}{20} + \frac{(29 - 20)^2}{20} = 18.7 \]

如果满足所有 假设,则 \(^2\) 近似服从具有 \(df\) 个自由度的卡方分布,其中

\[df = m - 1\]

对于 \(m\) 个频率。 由于我们有 4 个不同广告的 4 个频率,

\[df = 4 - 1 = 3\]

对于我们的示例数据。 最后,我们可以简单地查找 显著性水平

\[P(\chi^2(3) > 18.7) \approx 0.00032\]

我们在 此 Googlesheet 电子表格 中运行了这些计算,如下所示。

卡方拟合优度检验显著性检验

那么这意味着什么? 好吧,如果所有 4 个广告在人群中都同样受欢迎,那么找到我们观察到的频率的可能性为 0.00032。 由于 p < 0.05,我们拒绝零假设。 结论:在整个读者群体中,某些广告比其他广告更受欢迎。

好的,因此可以安全地假设总体比例并不都相等。 但它们到底有多不同? 我们可以用一个数字来表达: 效应量 (effect size)。

效应量 - Cohen’s W

卡方拟合优度检验(以及 卡方独立性检验 )的效应量是 Cohen’s W。 一些经验法则 1 是

  • Cohen’s W = 0.10 表示 效应量;
  • Cohen’s W = 0.30 表示 中等 效应量;
  • Cohen’s W = 0.50 表示 效应量。

Cohen’s W 计算如下:

\[W = \sqrt{\sum_{i = 1}^m\frac{(P_{oi} - P_{ei})^2}{P_{ei}}}\]

其中

  • \(P_{oi}\) 表示观察到的比例 (observed proportions),并且
  • \(P_{ei}\) 表示零假设下预期的比例 (expected proportions),适用于
  • \(m\) 个单元格。

对于 ad1,零假设表明所有预期比例均为 0.25。 观察到的比例是从观察到的频率计算出来的(参见下面的屏幕截图),结果为

\[W = \sqrt{\frac{(0.2 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} +\frac{(0.075 - 0.25)^2}{0.25} +\frac{(0.3625 - 0.25)^2}{0.25} } = \]

\[W = \sqrt{0.234} = 0.483\]

我们在 此 Googlesheet 电子表格 中运行了这些计算,如下所示。

卡方拟合优度检验效应量 Cohen’s W

对于 ad1,效应量 \(W\) = 0.483。 这表明观察到的频率和预期的频率之间存在很大的总体差异。

功效和样本量计算 (Power and Sample Size Calculation)

现在我们计算了效应量,我们就可以进行最后 2 个步骤了。 首先, 功效 怎么样? 如果出现以下情况,证明效应的概率是多少?

  • 我们在 α = 0.05 处进行检验;
  • 我们的样本为 N = 80;
  • df = 3(我们的结果变量有 4 个类别);
  • 我们不知道总体效应量 \(W\)?

下图(在 G*Power 中创建)回答了这个问题。

卡方拟合优度检验功效与效应量图表

一些基本结论是

  • 对于 效应量,功效 = 0.98
  • 对于 中等 效应量,功效 = 0.60
  • 对于 效应量,功效 = 0.10

这些结果不是太好:如果总体效应量为中等且 N = 80,我们只有 0.60 的概率拒绝零假设。 但是,我们可以通过增加样本量来增加功效。 那么,如果出现以下情况,我们需要哪些样本量

  • 我们在 α = 0.05 处进行检验;
  • 我们希望功效 = 0.80;
  • df = 3(我们的结果变量有 4 个类别);
  • 我们不知道总体效应量 \(W\)?

下图显示了所需样本量如何随着效应量的增加而减少。

卡方拟合优度检验功效样本量图表

在上述条件下,我们有功效 ≥ 0.80

  • 对于 效应量,如果 N = 44
  • 对于 中等 效应量,如果 N = 122
  • 对于 效应量,如果 N = 1091

参考文献

  1. Cohen, J (1988). Statistical Power Analysis for the Social Sciences (2nd. Edition) . Hillsdale, New Jersey, Lawrence Erlbaum Associates.
  2. Siegel, S. & Castellan, N.J. (1989). Nonparametric Statistics for the Behavioral Sciences (2nd ed.). Singapore: McGraw-Hill.
  3. Warner, R.M. (2013). Applied Statistics (2nd. Edition) . Thousand Oaks, CA: SAGE.